13장. 벤치마크 읽는 법

이 장의 목표 모델 카드의 점수표를 읽고 “이 모델이 뭘 잘하고 뭘 못하는지” 를 자기 눈으로 평가할 수 있게 됩니다.

“MMLU 1등!“에 휘둘리지 않게 됩니다.

13.1 벤치마크가 뭔가?

모델의 객관적 실력을 재기 위해 미리 만들어둔 시험 문제 세트입니다.

예:

MMLU 시험 문제 예
─────────────────
주제: 미국사
문제: 1776년에 일어난 사건은?
선택지: A. 독립선언 B. 남북전쟁 C. ...
정답: A

이런 문제 수천~수만 개를 모델에 풀게 하고 점수(정답률)를 매깁니다.

13.2 자주 보는 벤치마크 10가지

모델 카드에 가장 많이 등장하는 것들.

일반 지식·언어이해

이름	측정
MMLU	57개 분야 객관식 (역사·과학·법 등)
MMLU-Pro	MMLU의 어려운 버전
C-Eval	중국어 일반 지식
CMMLU	또 다른 중국어판
HellaSwag	상식 추론, 문장 완성

수학

이름	측정
GSM8K	초중등 수학 단답형
MATH	고등·대학 수학 (어려움)
AIME	미국 수학 올림피아드

코딩

이름	측정
HumanEval	Python 함수 작성
MBPP	Python 코딩 기초 문제
LiveCodeBench	최신 알고리즘 문제
SWE-bench	실제 GitHub 이슈 해결 (Agent 평가)

추론·지시 따르기

이름	측정
IFEval	형식·길이 등 지시 정확 이행
BBH	복잡한 추론 모음
ARC-Challenge	과학 추론

한국어

이름	측정
KMMLU	MMLU의 한국어 버전
HAERAE	한국어 종합
KoBest	한국어 다양한 과제

멀티모달

이름	측정
MMMU	멀티모달 대학수준
DocVQA	문서·차트 이해
MathVista	그림 포함 수학

긴 컨텍스트

이름	측정
Needle in a Haystack (NIAH)	긴 문맥 안에서 정보 찾기
RULER	긴 컨텍스트 종합
LongBench	긴 문서 작업 종합

13.3 점수의 일반적 감각

점수만 보면 막막하니 대략 감각을 잡아둡니다.

MMLU (보통 0~100)

50점대 → 약함 (작은 옛 모델)
60점대 → 평범
70점대 → 좋음 (요즘 8B 모델 수준)
80점대 → 매우 좋음 (32B급 좋은 모델)
85점 이상 → 최상위 (GPT-5, Claude Opus 4 등)

HumanEval

30~50% → 옛 모델
50~70% → 평범한 코딩 모델
70~85% → 좋은 코딩 모델 (Qwen Coder 32B)
85% 이상 → 매우 좋음

GSM8K

50% 이하 → 수학 약함
70~85% → 평범
90% 이상 → 잘함
95% 이상 → 매우 잘함 (Reasoning 모델)

숫자 자체보다 “동급 모델끼리의 비교“가 중요합니다. 같은 8B 모델끼리 비교해야 의미가 있습니다.

13.4 벤치마크의 함정 3가지

점수를 너무 믿으면 다칩니다.

함정 1 — Data Contamination(데이터 오염)

벤치마크 문제가 모델 학습 데이터에 이미 들어있을 수 있습니다.

이러면 모델이 “푼” 게 아니라 “외운” 거에 가깝습니다.

새 벤치마크일수록 신뢰도 높음 오래된 벤치마크는 의심하기

함정 2 — Overfitting to Benchmark

회사들이 벤치마크 점수를 올리려고 그 시험을 잘 보도록 따로 튜닝합니다.

학교에서 모의고사만 잘 보는 학생 같습니다.

실전 업무에선 점수만큼 안 좋을 수 있습니다.

함정 3 — 평가 방식 차이

같은 MMLU여도

객관식만? CoT(생각 과정) 포함?
5-shot? Zero-shot?
평균? 가중치?

방식이 다르면 점수가 5~10점씩 출렁입니다.

같은 모델, 같은 시험인데 누가 측정했냐에 따라 결과가 다를 수 있습니다.

13.5 벤치마크보다 좋은 것 — 내 작업 테스트

결국 가장 정확한 벤치마크는 “내 업무 질문에 대한 답“입니다.

이걸 위해 나만의 테스트 셋을 만들어두면 좋습니다.

자주 묻는 형태로 10~20개:

회사 도메인 질문 5개
코드 작성 3개
문서 요약 3개
한국어 작문 3개
환각 테스트 (모르는 사실) 2개
거절 테스트 (위험 질문) 2개

이걸 새 모델이 나올 때마다 똑같이 시켜보면 나에게 맞는 모델을 점수표 없이 가릴 수 있습니다.

(40장에서 다시 자세히)

13.6 신뢰할 만한 리더보드

벤치마크 점수를 모아 보여주는 사이트들.

사이트	특징
lmarena.ai	사람이 직접 비교 평가 (Chatbot Arena)
artificialanalysis.ai	가격·속도·품질 종합
Hugging Face Leaderboards	자동 평가 다수
EvalsArena / OpenLLM Leaderboard	학술적 비교

가장 추천:

lmarena.ai — 사용자가 두 답변을 직접 비교 투표 점수 조작에 강함

13.7 모델 카드 점수표 읽기 실전

대표적인 점수표 형태.

| Benchmark    | Score |
|--------------|-------|
| MMLU         | 83.5  |
| MMLU-Pro     | 68.2  |
| GSM8K        | 92.1  |
| HumanEval    | 85.4  |
| MATH         | 65.3  |
| IFEval       | 79.0  |

이걸 읽는 법.

내 용도와 관련된 줄만 본다
- 코딩 → HumanEval, LiveCodeBench
- 수학 → GSM8K, MATH
- 일반 지식 → MMLU
- 지시 따르기 → IFEval
동급 모델과만 비교
- 같은 8B / 32B / 70B 끼리
출처를 본다
- 회사가 자체 보고 vs 제3자 측정
약점도 찾는다
- 모델 카드에 빠진 벤치마크가 의심스러우면 외부 확인

13.8 흔히 좋아 보이지만 못 미더운 표

가끔 모델 카드에 이런 표가 있습니다.

Qwen3-32B (Ours) ─────  85.5
GPT-5             ─────  82.0
Claude Opus 4     ─────  78.0
Llama 3.3 70B    ─────  75.0

오케이, 의심해봅니다.

측정 시기는?
평가 방식은 동일?
자체 보고 점수?
그 모델들이 한 달 전 버전 아닌가?

회사가 자기 모델 점수를 직접 발표하면 항상 의심.

가장 안전한 비교는 다시 한 번:

lmarena.ai 의 실사용자 투표
내 테스트 셋(40장)으로 직접 비교

이 장에서 기억할 한 가지

벤치마크는 참고용 1, 결정적 근거 0.

동급 모델 사이의 비교에서만 의미 있고, 내 업무 질문 10개 가 항상 더 정확합니다.

점수가 비슷하면 lmarena.ai 의 사람 투표를 보세요.

손으로 해볼 것

1. 같은 크기 두 모델 비교 표 만들기

Qwen3-32B-Instruct 와 Llama-3.3-70B-Instruct 의 모델 카드 점수를 다음 표에 옮겨보세요.

항목	Qwen3-32B	Llama-3.3-70B
MMLU	?	?
HumanEval	?	?
IFEval	?	?
GSM8K	?	?

같은 32B 모델끼리 / 같은 70B 모델끼리도 한 번씩 비교해보세요.

2. lmarena.ai 둘러보기

lmarena.ai 에 들어가서 같은 질문에 두 모델이 답하는 걸 보고 어느 쪽이 더 마음에 드는지 투표해보세요.

5~10번 반복하면 “리더보드 점수 vs 내 취향“이 달라질 수 있다는 걸 체감하게 됩니다.

다음 장에서는 Dense 모델과 MoE 모델의 차이 를 정리합니다.

“30B인데 활성 파라미터 3B” 같은 표기를 한 번에 이해할 수 있게 됩니다.

Keyboard shortcuts

맥에서 시작하는 로컬 AI